

<!DOCTYPE html>
<html class="writer-html5" lang="en" >
<head>
  <meta charset="utf-8" />
  
  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
  
  <title>与 POSIX 标准的差异 &mdash; Ceph Documentation</title>
  

  
  <link rel="stylesheet" href="../../_static/ceph.css" type="text/css" />
  <link rel="stylesheet" href="../../_static/pygments.css" type="text/css" />
  <link rel="stylesheet" href="../../_static/graphviz.css" type="text/css" />
  <link rel="stylesheet" href="../../_static/css/custom.css" type="text/css" />

  
  
    <link rel="shortcut icon" href="../../_static/favicon.ico"/>
  

  
  

  

  
  <!--[if lt IE 9]>
    <script src="../../_static/js/html5shiv.min.js"></script>
  <![endif]-->
  
    
      <script type="text/javascript" id="documentation_options" data-url_root="../../" src="../../_static/documentation_options.js"></script>
        <script src="../../_static/jquery.js"></script>
        <script src="../../_static/underscore.js"></script>
        <script src="../../_static/doctools.js"></script>
    
    <script type="text/javascript" src="../../_static/js/theme.js"></script>

    
    <link rel="index" title="Index" href="../../genindex/" />
    <link rel="search" title="Search" href="../../search/" />
    <link rel="next" title="MDS Journaling" href="../mds-journaling/" />
    <link rel="prev" title="MDS 的各种状态" href="../mds-states/" /> 
</head>

<body class="wy-body-for-nav">

   
  <header class="top-bar">
    

















<div role="navigation" aria-label="breadcrumbs navigation">

  <ul class="wy-breadcrumbs">
    
      <li><a href="../../" class="icon icon-home"></a> &raquo;</li>
        
          <li><a href="../">Ceph 文件系统</a> &raquo;</li>
        
      <li>与 POSIX 标准的差异</li>
    
    
      <li class="wy-breadcrumbs-aside">
        
          
            <a href="../../_sources/cephfs/posix.rst.txt" rel="nofollow"> View page source</a>
          
        
      </li>
    
  </ul>

  
  <hr/>
</div>
  </header>
  <div class="wy-grid-for-nav">
    
    <nav data-toggle="wy-nav-shift" class="wy-nav-side">
      <div class="wy-side-scroll">
        <div class="wy-side-nav-search"  style="background: #eee" >
          

          
            <a href="../../">
          

          
            
            <img src="../../_static/logo.png" class="logo" alt="Logo"/>
          
          </a>

          

          
<div role="search">
  <form id="rtd-search-form" class="wy-form" action="../../search/" method="get">
    <input type="text" name="q" placeholder="Search docs" />
    <input type="hidden" name="check_keywords" value="yes" />
    <input type="hidden" name="area" value="default" />
  </form>
</div>

          
        </div>

        
        <div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
          
            
            
              
            
            
              <ul class="current">
<li class="toctree-l1"><a class="reference internal" href="../../start/intro/">Ceph 简介</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../install/">安装 Ceph</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../cephadm/">Cephadm</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../rados/">Ceph 存储集群</a></li>
<li class="toctree-l1 current"><a class="reference internal" href="../">Ceph 文件系统</a><ul class="current">
<li class="toctree-l2"><a class="reference internal" href="../#cephfs">CephFS 入门</a></li>
<li class="toctree-l2"><a class="reference internal" href="../#id4">管理</a></li>
<li class="toctree-l2"><a class="reference internal" href="../#id5">挂载 CephFS</a></li>
<li class="toctree-l2 current"><a class="reference internal" href="../#id6">CephFS 内幕</a><ul class="current">
<li class="toctree-l3"><a class="reference internal" href="../mds-states/"> MDS 的各种状态</a></li>
<li class="toctree-l3 current"><a class="current reference internal" href="#"> POSIX 兼容性</a><ul>
<li class="toctree-l4"><a class="reference internal" href="#id1">前景展望</a></li>
<li class="toctree-l4"><a class="reference internal" href="#id2">底线</a></li>
<li class="toctree-l4"><a class="reference internal" href="#fsync">fsync() 和报错</a></li>
</ul>
</li>
<li class="toctree-l3"><a class="reference internal" href="../mds-journaling/"> MDS 日志记录</a></li>
<li class="toctree-l3"><a class="reference internal" href="../file-layouts/"> 文件布局</a></li>
<li class="toctree-l3"><a class="reference internal" href="../mdcache/"> 分布式元数据缓存</a></li>
<li class="toctree-l3"><a class="reference internal" href="../dynamic-metadata-management/"> CephFS 内的动态元数据管理</a></li>
<li class="toctree-l3"><a class="reference internal" href="../cephfs-io-path/"> CephFS IO 路径</a></li>
<li class="toctree-l3"><a class="reference internal" href="../lazyio/"> LazyIO</a></li>
<li class="toctree-l3"><a class="reference internal" href="../dirfrags/"> 目录分片的配置</a></li>
<li class="toctree-l3"><a class="reference internal" href="../multimds/"> 多活 MDS 的配置</a></li>
</ul>
</li>
<li class="toctree-l2"><a class="reference internal" href="../#id7">故障排除和灾难恢复</a></li>
<li class="toctree-l2"><a class="reference internal" href="../#id9">更多细节</a></li>
</ul>
</li>
<li class="toctree-l1"><a class="reference internal" href="../../rbd/">Ceph 块设备</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../radosgw/">Ceph 对象网关</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../mgr/">Ceph 管理器守护进程</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../mgr/dashboard/">Ceph 仪表盘</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../api/">API 文档</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../architecture/">体系结构</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../dev/developer_guide/">开发者指南</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../dev/internals/">Ceph 内幕</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../governance/">项目管理</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../foundation/">Ceph 基金会</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../ceph-volume/">ceph-volume</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../releases/general/">Ceph 版本（总目录）</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../releases/">Ceph 版本（索引）</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../security/">Security</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../glossary/">Ceph 术语</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../jaegertracing/">Tracing</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../translation_cn/">中文版翻译资源</a></li>
</ul>

            
          
        </div>
        
      </div>
    </nav>

    <section data-toggle="wy-nav-shift" class="wy-nav-content-wrap">

      
      <nav class="wy-nav-top" aria-label="top navigation">
        
          <i data-toggle="wy-nav-top" class="fa fa-bars"></i>
          <a href="../../">Ceph</a>
        
      </nav>


      <div class="wy-nav-content">
        
        <div class="rst-content">
        
          <div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
           <div itemprop="articleBody">
            
<div id="dev-warning" class="admonition note">
  <p class="first admonition-title">Notice</p>
  <p class="last">This document is for a development version of Ceph.</p>
</div>
  <div id="docubetter" align="right" style="padding: 5px; font-weight: bold;">
    <a href="https://pad.ceph.com/p/Report_Documentation_Bugs">Report a Documentation Bug</a>
  </div>

  
  <div class="section" id="posix">
<h1>与 POSIX 标准的差异<a class="headerlink" href="#posix" title="Permalink to this headline">¶</a></h1>
<p>CephFS 尽可能地严格遵循 POSIX 语义，比如，与其他很多网络文件系统
（如 NFS ）相反， CephFS 与各个客户端之间维持着缓存的强一致性。
目的就是为了让不同主机上的进程通过这个文件系统通讯时，可以表现得与本机进程间的通讯一样。</p>
<p>然而，CephFS 确实由于各种原因在某些地方偏离了严谨的
POSIX 语义：</p>
<ul class="simple">
<li><p>如果一个客户端向一个文件写入、然后失败了，它的写入动作不一定是原子的。
也就是说，客户端可以调用 write(2) 、
用 O_SYNC 打开一个文件填入了 8 MB 缓冲，
然后崩溃了，本次写入可能只有部分成功了。
（几乎所有的文件系统、甚至是本地文件系统，都有类似问题）</p></li>
<li><p>在共享的、多人同时写入的情形下，
跨越对象边界的写入不一定是原子的。
这意味着你可以同时让写入程序 A 写 “aa|aa” 、
写入程序 B 写 “bb|bb” （其中的 | 是对象边界），
而结束于 “aa|bb” ，而非完全是 “aa|aa” 或者 “bb|bb” 。</p></li>
<li><p>稀疏文件会错误地传递给 stat(2) 的 st_blocks 字段。
因为 CephFS 不会特意去追踪一个文件的哪部分已经分配了、写入了数据，
st_blocks 字段总是由文件尺寸除以块尺寸计算出的。
这会使类似 du(1) 这样的工具高估耗费的空间。
（CephFS 维护的递归尺寸字段，
也把文件“空洞”计算在内了。）</p></li>
<li><p>当一个文件在多个主机上都被 mmap(2) 映射到了内存里，
写入的数据不会相应地传播到其它客户端的缓存里。
就是说，如果一个内存页在主机 A 上缓存了，然后主机 B 更新了这个文件，
主机 A 的内存页不会相应地变成失效页。
（共享的可写 mmap 似乎相当罕见——我们还没收到过关于这种行为的投诉，
而且，正确地实现缓存一致性很复杂。）</p></li>
<li><p>CephFS 客户端上都有一个隐藏的 <code class="docutils literal notranslate"><span class="pre">.snap</span></code> 目录，
它是用于访问、创建、删除、和重命名快照的。
虽然这个虚拟的目录会被 readdir(2) 排除出去，可是，
任何想创建同名文件或目录的进程都会收到一个报错码。
这个隐藏目录的名字可以在挂载时更改，
用 <code class="docutils literal notranslate"><span class="pre">-o</span> <span class="pre">snapdirname=.somethingelse</span></code> (Linux) 或者配置选项 <code class="docutils literal notranslate"><span class="pre">client_snapdir</span></code> (libcephfs, ceph-fuse) 。</p></li>
</ul>
<div class="section" id="id1">
<h2>前景展望<a class="headerlink" href="#id1" title="Permalink to this headline">¶</a></h2>
<p>人们关于 “POSIX 兼容性”的话很多，但现实中大多数文件系统的实现都没有严格遵守这个规范，
包括像 ext4 和 XFS 这样的本地文件系统。例如，
为了高性能，读取的原子性要求放宽了：
一个文件正被写入时、对它的读取结果就可能是撕裂的。</p>
<p>类似地， NFS 的一致性语义非常弱，
当多个客户端都对同一组文件或目录感兴趣时，
它选择了“关闭再打开”。在网络附加存储的世界里，
它们大多数都用 NFS ，服务器的文件系统是不是“完整的 POSIX ”文件系统都不要紧、
客户端应用程序是否通知取决于客户端之间是否共享了数据。
NFS 也会“撕裂”并行写入程序的结果，因为直到文件关闭、
客户端的数据才会刷回服务器（更普遍的是，
写入比 Ceph 用的时间更多，会导致更不可预测的结果）。</p>
<p>即便如此，所有的都很接近 POSIX ，
而且大多数时间应用程序也不会太在意。
很多其它存储系统（如 HDFS ）宣称是类 POSIX 的，
但却明显偏离了标准，它们放弃了一些事情，
像文件的原地修改、裁剪、或目录重命名。</p>
</div>
<div class="section" id="id2">
<h2>底线<a class="headerlink" href="#id2" title="Permalink to this headline">¶</a></h2>
<p>CephFS 相比 Linux 内核的本地文件系统放宽得更多
（如跨越对象边界的写入可能被撕裂）。
在多客户端一致性方面它比 NFS 严格得多，
而在写原子性上普遍不如 NFS 。</p>
<p>换句话说，在 POSIX 严格性方面，</p>
<div class="highlight-default notranslate"><div class="highlight"><pre><span></span><span class="n">HDFS</span> <span class="o">&lt;</span> <span class="n">NFS</span> <span class="o">&lt;</span> <span class="n">CephFS</span> <span class="o">&lt;</span> <span class="p">{</span><span class="n">XFS</span><span class="p">,</span> <span class="n">ext4</span><span class="p">}</span>
</pre></div>
</div>
</div>
<div class="section" id="fsync">
<h2>fsync() 和报错<a class="headerlink" href="#fsync" title="Permalink to this headline">¶</a></h2>
<p>fsync 报告一个错误之后， POSIX 关于一个 inode 的描述不太明确。
总的来说， CephFS 在客户端的内核用的是标准的错误报告机制，
因此，遵循和其它文件系统相同的惯例。</p>
<p>在现代 Linux 内核中（ v4.17 或更高版），发生错误时，
会对每一个打开着的文件描述符报告回写错误。
另外，文件描述符打开前发生的、没报告过的错误也会在 fsync 时返回给它。</p>
<p>更多案例见 <a class="reference external" href="https://wiki.postgresql.org/wiki/Fsync_Errors">PostgreSQL 在各操作系统上的 fsync() 错误报告汇总</a> 和
<a class="reference external" href="https://www.youtube.com/watch?v=74c19hwY2oE">Matthew Wilcox 关于 Linux IO 错误处理的演讲</a> 。</p>
</div>
</div>



           </div>
           
          </div>
          <footer>
    <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
        <a href="../mds-journaling/" class="btn btn-neutral float-right" title="MDS Journaling" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right" aria-hidden="true"></span></a>
        <a href="../mds-states/" class="btn btn-neutral float-left" title="MDS 的各种状态" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left" aria-hidden="true"></span> Previous</a>
    </div>

  <hr/>

  <div role="contentinfo">
    <p>
        &#169; Copyright 2016, Ceph authors and contributors. Licensed under Creative Commons Attribution Share Alike 3.0 (CC-BY-SA-3.0).

    </p>
  </div> 

</footer>
        </div>
      </div>

    </section>

  </div>
  

  <script type="text/javascript">
      jQuery(function () {
          SphinxRtdTheme.Navigation.enable(true);
      });
  </script>

  
  
    
   

</body>
</html>